سال تحصیلی ۱۴۰۱-۱۴۰۲ فصل پائیز
مدرس: محسن هوشمند
تعداد اعضاء ارائهء موضوع | نام مقله | نام اعضا |
---|---|---|
تک نفری | 2013 Playing Atari with Deep Reinforcement Learning (DQN) | جواد اصغری |
دو نفری | 2016 Mastering the game of Go with deep neural networks and tree search (Alpha Go) | حسین رضائی |
2017 Mastering the game of Go without human knowledge (AlphaGo Zero) | ایضا | |
2018 A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play (Alpha Zero) | ایضا | |
تک نفری | 2010 Double Q-learning | |
2016 Deep Reinforcement Learning with Double Q-Learning | ||
2018 Addressing Function Approximation Error in Actor-Critic Methods | ||
تک نفری | 2018 Reinforcement learning for solving the vehicle routing problem | امیر خلیلی |
تک نفری | 2019 Human-level performance in 3D multiplayer games with population-based reinforcement learning | |
تک نفری | 2019 Learning to Optimize Join Queries With Deep Reinforcement Learning |
عنوان مبحث | تاریخ | تمرین | منبع مطالعه |
---|---|---|---|
معرفی و مقدمات | نه مهر | ||
کاوش در مقابل بهرهبرداری | شانزده مهر | ساتن و بارتو - فصل دوم | |
هژده مهر | ساتن و بارتو - فصل دوم | ||
بیست و سه مهر | ساتن و بارتو - فصل دوم | ||
بیست و پنج مهر | ساتن و بارتو - فصل دوم | ||
سی مهر | تمرین صفر | ساتن و بارتو - فصل دوم | |
فرایند تصمیم مارکوف | دو آبان | ساتن و بارتو -فصل سوم | |
هفت آبان | ساتن و بارتو -فصل سوم | ||
نه آبان | ساتن و بارتو -فصل سوم | ||
چهارده آبان | ساتن و بارتو -فصل سوم | ||
برنامهریزی پویا | شانزده آبان | ساتن و بارتو -فصل چهارم | |
بیست و یک آبان | ساتن و بارتو -فصل چهارم | ||
بیست و سه آبان | ساتن و بارتو -فصل چهارم | ||
روش مونت کارلو | بیست و هشت آبان | ساتن و بارتو -فصل پنجم | |
سی آبان | ساتن و بارتو -فصل پنجم | ||
پنج آبان | ساتن و بارتو -فصل پنجم | ||
تفاضل زمانی | هفت آبان | تمرین یک | ساتن و بارتو -فصل ششم |